home *** CD-ROM | disk | FTP | other *** search
/ Atari Mega Archive 1 / Atari Mega Archive - Volume 1.iso / mint / utils / agrepbin.zoo / readme < prev    next >
Text File  |  1993-01-19  |  4KB  |  78 lines

  1. This is version 2.01 of agrep - a new tool for fast 
  2. text searching allowing errors.
  3. agrep is similar to egrep (or grep or fgrep), but it is much more general
  4. (and usually faster).
  5. The main changes from version 1.1 are 1) incorporating Boyer-Moore
  6. type filtering to speed up search considerably, 2) allowing multi patterns 
  7. via the -f option; this is similar to fgrep, but from our experience 
  8. agrep is much faster, 3) searching for "best match" without having to
  9. specify the number of errors allowed, and 4) ascii is no longer required.
  10. Several more options were added.
  11.  
  12. The three most significant features of agrep that are not supported by
  13. the grep family are 
  14. 1) the ability to search for approximate patterns;
  15.     for example, "agrep -2 homogenos foo" will find homogeneous as well 
  16.     as any other word that can be obtained from homogenos with at most 
  17.     2 substitutions, insertions, or deletions.
  18.     "agrep -B homogenos foo" will generate a message of the form
  19.     best match has 2 errors, there are 5 matches, output them? (y/n)
  20. 2) agrep is record oriented rather than just line oriented;  a record
  21.     is by default a line, but it can be user defined;
  22.     for example, "agrep -d '^From ' 'pizza' mbox"
  23.     outputs all mail messages that contain the keyword "pizza".
  24.     Another example:  "agrep -d '$$' pattern foo" will output all
  25.     paragraphs (separated by an empty line) that contain pattern.
  26. 3) multiple patterns with AND (or OR) logic queries.   
  27.     For example, "agrep -d '^From ' 'burger,pizza' mbox" 
  28.     outputs all mail messages containing at least one of the 
  29.     two keywords (, stands for OR).
  30.     "agrep -d '^From ' 'good;pizza' mbox" outputs all mail messages
  31.     containing both keywords.
  32.  
  33. Putting these options together one can ask queries like
  34.  
  35. agrep -d '$$' -2 '<CACM>;TheAuthor;Curriculum;<198[5-9]>' bib
  36.  
  37. which outputs all paragraphs referencing articles in CACM between 
  38. 1985 and 1989 by TheAuthor dealing with curriculum.  
  39. Two errors are allowed, but they cannot be in either CACM or the year 
  40. (the <> brackets forbid errors in the pattern between them).  
  41.  
  42. Other features include searching for regular expressions (with or
  43. without errors), unlimited wild cards, limiting the errors to only 
  44. insertions or only substitutions or any combination, 
  45. allowing each deletion, for example, to be counted as, say, 
  46. 2 substitutions or 3 insertions, restricting parts of the query 
  47. to be exact and parts to be approximate, and many more.
  48.  
  49. agrep is available by anonymous ftp from cs.arizona.edu (IP 192.12.69.5)
  50. as agrep/agrep-2.01.tar.Z (or in uncompressed form as agrep/agrep-2.01.tar).
  51. The tar file contains the source code (in C), man pages (agrep.1),
  52. and two additional files, agrep.algorithms and agrep.chronicle,
  53. giving more information.
  54. The agrep directory also includes two postscript files: 
  55. agrep.ps.1 is a technical report from June 1991 
  56. describing the design and implementation of agrep;
  57. agrep.ps.2 is a copy of the paper as appeared in the 1992
  58. Winter USENIX conference.
  59.  
  60. Please mail bug reports (or any other comments) 
  61. to sw@cs.arizona.edu or to udi@cs.arizona.edu.
  62.  
  63. We would appreciate if users notify us (at the address above)
  64. of any extensions, improvements, or interesting uses of this software.
  65.  
  66. January 17, 1992
  67.  
  68.  
  69. BUGS found and fixed:
  70. 1. multiple definitions of some global variables.
  71.    (though haven't caused real problems)
  72. 2. -G option doesn't work.
  73.    (compat.c do too much checking. After remove the checking of
  74.     -c option against -G option, and it works.)
  75. 3. -w option forced the first character in the pattern to match.
  76.     remove the restriction.
  77. January 23, 1992
  78.